在基因表現量的分析中,RPKM(Reads Per Kilobase of transcript, per Million mapped reads)是用來標準化基因表現量的常用方法,今天我將解釋 RPKM 計算的原理,並確保所需的基因數據已經準備好。
首先我先簡單說明 RPKM 的計算公式。RPKM 是一種衡量基因在不同樣本中的表現量的標準化方法,它考慮了基因的長度以及每個樣本中的總讀數,從而消除樣本之間的技術變異。
RPKM 的計算公式如下:
RPKM = (Read Count / Gene Length (kb)) / Total Reads (millions)
這個公式中:
接下來我必須查看前面幾天所爬取的數據是否 OK,這些數據的前處理包刮:
基因長度:已從 Ensembl 網站抓取並計算了每個基因的長度,並進行了清理,確保基因長度是準確的。
讀數數據:這些數據來自之前讀取的 Excel 文件,文件包含每個樣本中每個基因的讀數(read count)
樣本的總讀數:就是全部基因的讀數加總
以下是準備計算總讀數的代碼:
# 提取樣本的讀數數據,假設讀數從第二列到第89列
read_counts = df.iloc[:, 1:89]
# 計算每個樣本的總讀數
total_reads = read_counts.sum(axis=0)
print(total_reads)
在上面這段 Code 中,我提取了樣本中的讀數數據,然後使用 sum()
函數計算每個樣本的總讀數,這些總讀數將用於後續的 RPKM 計算。
相信經過上面的介紹,能夠初步理解了 RPKM 的計算公式,並準備好所需的數據;接下來我將開始進行實際的 RPKM 計算,並使用這些數據來衡量每個基因在不同樣本中的表現量。